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基于 多 流 CNN-LSTM 网 络 的 群体 情绪 识别 
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(四 川 大 学 电子 信息 学 院 , 成 都 610065) 


摘 要 : 群体 情绪 识别 是 人 机 交互 领域 的 前 言 课题 ， 针 对 群体 情绪 识别 准确 率 的 问题 ， 结 合 卷 积 神经 网 络 (CNN) 与 
长 短期 记忆 网 络 (LSTM)， 提 出 一 种 多 流 CNN-LSTM 网 络 模型 学 习 群 体 情绪 的 静态 和 动态 特征 。 以 视频 序列 的 原始 
图 像 、 视 觉 显著 图 形 和 登 加 的 光 流 图 像 分 别 作 为 三 个 通道 的 输入 ， 利 用 CNN 网 络 对 空间 特征 和 局 部 运动 特征 进行 分 
析 ， 得 到 的 特征 图 直接 输入 LSTM 网 络 , 进行 全 局 运动 特征 的 学 习 。 最 后 连接 Softmax 分 类 器 ,对 三 个 通道 的 Softmax 
输出 进行 加 权 融 合 ， 得 到 分 类 结果 。 实 验 结果 表明 ， 本 文 模型 可 有 效 地 识别 4 种 典型 的 群体 情绪 ， 且 识别 率 高 于 已 有 
算法 ， 准 确 度 (ACC) 和 宏 平均 精度 (MAP) 分 别 最 高 可 达 82.6%、84.1%。 
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Crowd emotion recognition based on multi-stream CNN-LSTM networks 
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Abstract: Crowd emotion recognition is a preface topic in human-computer interaction field. Aimed at the problem of the 


accuracy of group emotion recognition, combined with the convolutional neural network (CNN) and the long and short memory 


network (LSTM) , this paper developed a multi-stream CNN-LSTM network model to study the static and dynamic 


characteristics of group emotion. Using the original images, saliency maps and stacked optical images as the input of three 


channels, the spatial features and local motion features were analyzed using the CNN. In order to learn the global motion 
information, the output feature maps of CNN were used as the input of LSTM. Finally, connected to the Softmax classifier, 
weighted fusion was adopted to the output of the three streams Softmax classifier. The experimental results show that the model 
can effectively identify 4 typical crowd emotions, and the recognition rate is higher than the existing algorithms. The maximum 
accuracy (ACC) and macro average accuracy (MAP) are up to 82.6% and 84.1%, respectively. 
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0 引言 前 ， 针 对 群体 情绪 识别 已 有 许多 基于 传统 方法 的 研究 ， 
将 视频 序列 帧 间 的 运行 特征 输入 到 分 类 器 进行 分 类 。Urizar 等 
人 体 情绪 识别 作为 智能 化 人 机 交互 技术 中 的 一 个 重要 组 成 人 中 提出 一 种 基于 分 层 贝 叶 斯 模型 的 群体 情绪 识别 算法 ， 通 过 
部 分 ， 有 着 广阔 的 应 用 前 景 。 人 体 情绪 识别 主要 分 为 个 体 情绪 。 挖掘 行为 和 情绪 之 间 的 关系 推断 群体 情绪 的 状态 。Rabiee 等 人 
识别 和 群体 情绪 识别 两 个 方面 。 目 前 ， 大 多 数 研究 主要 集中 在 。 ” 久 结 合群 体 行为 训练 一 套 基于 情绪 的 SVM 分 类 器 , 对 监控 视频 
基于 表情 的 个 体 情绪 识别 问题 上 ， 对 群体 情绪 识别 的 研究 相对 进行 异常 检测 。PatwardhanD] 对 整个 视频 序列 进行 边缘 检测 ， 并 
匮乏 。 然 而 ， 随 着 城市 人 口 的 迅速 增长 ， 研 究 对 象 由 个 体 逐 渐 ”结合 网 格 线性 县 加 提取 特征 , 利用 SVM 进行 分 类 。Zhang 等 
转变 为 群体 , 并且 在 拥挤 的 环境 中 , 由 于 遮挡 和 分 辨 率 的 问题 ， 贡 利 用 结构 化 轨迹 学 习 检测 群体 连贯 的 运动 模式 ， 再 将 运动 模 
很 难 根据 个 人 的 表情 去 推断 群体 的 情绪 。 因 此 ， 基 于 视频 的 群 。” 式 映射 到 情感 平面 ， 最 后 利用 分 类 器 对 特征 进行 分 类 。 尽 管 上 
体 情 绪 识 别 显得 尤为 重要 ， 它 不 仅 可 以 应 用 于 监控 视频 的 异常 ” 述 方法 在 群体 情绪 识别 中 取得 了 一 定 的 效果 ， 但 是 由 于 真实 场 
检测 ， 还 可 以 应 用 于 智慧 城市 的 规划 ， 以 给 人 们 提供 更 加 人 性 ” 景 的 复杂 性 ， 不 同 环境 下 人 工 选 择 的 特征 量 是 有 差异 的 ， 所 以 
化 的 服务 。 如 何 高 效 地 识别 群体 情绪 是 目前 急需 解决 的 问题 。 模型 参数 的 泛 化 性 能 差 。 
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图 2 基于 多 流 CNN-LSTM 的 群体 情绪 识别 网 络 
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@ Ubuntu 14.04 X64。 
a 为 了 评估 本 文 所 提 的 多 流 CNN-LSTM 群体 情绪 识别 网 络 
;| : 的 性 能 ， 本 文 对 三 通道 网 络 进行 了 如 下 实验 : 
; QD 只 选取 原始 图 像 通 道 。 


IMG Oo CNN >» LSIM >» Output 
@ 只 选取 视觉 显著 图 像 


@ 只 选取 县 加 光 流 图 像 通道 。 


Me [CNN LSIM | .| Outputr 人 由 对 原始 图 像 通道 和 视觉 显著 图 像 通道 Softmax 层 输出 
图 3 CNN 网 络 与 LSTM 网 络 的 连接 结构 rs 
@ 对 原始 图 像 通道 和 闪 加 光 流 图 像 通道 Softmax 层 输出 
进行 平均 融合 。 
pa a @@ 对 原始 图 像 通道 .视觉 显著 图 像 通道 和 辣 加 光 流 图 像 通 
加 道 Softmax 层 输出 进行 平均 融合 。 
2.2 ”数据 集 与 评价 标准 
oe 06 > 由 于 目前 关于 群体 的 数据 集 主要 是 针对 群体 行为 分 析 ， 并 
3 We 没有 群体 情绪 标签 的 标准 数据 集 , 所 以 本 文 结合 CUHK 群体 数 
ee 据 集 ab9、 UCF 数据 集 P0、Web 数据 集 CJ、PET2009 数据 集 C3 
村 |。 建立 具有 群体 情绪 标签 的 数据 集 。 群 体 情 绪 分 为 Bored、 Excited、 
Frantic、Relaxed4 个 类 别 。 典 型 的 视频 场景 如 图 $ 所 示 。 本 文 
0 


0 5000 i0000 15000 20000 25000 30000" 采用 旋转 、 加 噪声 等 方法 对 数据 集 进 行 扩 展 ， 训 练 集 包 含 863 
lterations Em 和 
个 视频 ， 验 证 集 包 含 142 个 视频 ,测试 集 为 文献 [和 所 采用 的 测 
图 4 CNN-LSTM 网 络 的 训练 过 程 S i i 
试 集 ， 包含 86 个 视频 。 其 中 ， 验 证 集 用 于 训练 阶段 的 测试 ， 当 
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训练 数据 集 迭 代 完 一 次 后 ， 则 对 验证 集 进 行 测试 ， 以 防止 过 拟 


hinaXiv 合 人 


卿 光波 ， 等 : 基于 多 流 


6 给 出 了 本 文 多 流 CNN-LSTM 网 络 模型 


合 ， 测 试 集 则 用 于 对 训练 好 的 模型 进行 测试 ， 验 证 模型 的 准确 


本 文采 用 准确 度 (accuracy ACC) 和 宏 平均 精确 度 (macro 
average precision, MAP) 作 为 评价 标准 ， 计 算 方 法 如 下 所 示 : 
” TP 
ACC = 于 一 一 一 一 (1) 
> (TIP+FN) 
MA4P= 工 yP O) 
TP 
Rt 
其 中 : :表示 人 群情 绪 类 别 的 数目 ; ?表示 第 i 类 的 精确 度 ; TP 、 


FN; 分 别 表示 第 i 类 中 正确 预测 的 数目 和 错误 预测 的 数 


{c) Frantic (d) Relaxed 
图 5 数据 集 标签 与 其 对 应 的 典型 场景 
2.3 ”实验 结果 与 分 析 


为 了 说 明 本 文 模 型 的 有 效 性 ， 与 文献 [4] 进 行 了 对 比 实验 。 
文献 [4] 采 用 传统 算法 对 群体 情绪 进行 识别 , 利用 分 类 器 对 结构 
化 轨迹 学 习 到 的 运动 特征 进行 分 类 。 表 1 给 出 了 本 文 多 流 CNN- 
LSTM 群体 情绪 识别 网 络 模型 与 文献 [4] 群 体 情绪 识别 算法 的 实 
验 对 比 结果 。 
从 表 1 可 以 看 出 ， 分 别 以 原始 图 像 、 显 著 图 形 、 著 加 光 流 
图 像 训练 模型 时 , 原始 图 像 通道 的 识别 结果 最 好 , ACC 和 MAP 
分 别 为 80.2% 和 82%， 且 高 于 文献 [4] 的 结果 。 当 在 原始 图 像 通 
道中 加 入 显著 图 像 通道 进行 融合 后 ， 由 于 原始 图 和 显著 图 都 只 
于 运动 平缓 的 视频 ， 不 能 提高 运动 剧烈 的 视频 的 识别 率 ， 
所 以 ACC 和 MAP 有 所 下 降 。 但 在 原始 图 像 通道 加 入 钱 加 光 流 
图 像 通道 进行 融合 后 ，ACC 和 MAP 却 提高 了 ， 这 主要 是 因为 
原始 图 像 通 道 对 运动 平缓 的 视频 (如 Relaxed 类 ) 识 别 效 果 好 ， 
县 加 光 流 图 像 通 道 对 运动 剧烈 的 视频 (如 Frantic 类 ) 识别 效果 
好 ， 加 权 融 合 增强 了 模型 对 不 同 运动 程度 视频 的 学 习 能 力 。 最 
终 , 原始 图 像 通道 .显著 图 像 通道 与 琶 加 光 流 图 像 通道 融合 后 
ACC 和 MAP 达到 最 高 ， 分 别 为 82.6%、84.1%， 与 文献 [4] 相 
比 , 分 别提 高 了 7.7%、9.8%。 证 明了 与 文献 [和 传统 算法 相 比 ， 
本 文 模型 具有 更 准备 的 分 类 结果 ， 同 时 也 说 明了 深度 学 习 在 群 
体 情 绪 上 的 学 习 能 力 。 


ee 


和 
志 


CNN-LSTM 网 络 的 


图 像 通 道 与 县 加 光 流 图 像 通 道 的 平均 融合 结果 。 从 图 6 


4 和 文献 [4 群体 


情绪 识别 结果 的 混淆 和 矩阵， 本 文 模型 选取 原始 图 像 通 道 、 


显著 


可 以 看 


出 ， 本 文 模型 在 Bored、Frantic、Relaxed 这 三 类 的 识别 率 都 高 


于 文献 [4 和 ]，Excited 与 文献 [4] 相 同 。 从 图 4 中 的 数据 集 典 型 场 
景 可 以 看 出 Bored 和 Relaxed 这 两 类 的 区 分 度 并 不 是 很 大 ， 但 
是 本 文 模型 对 Bored 和 Relaxed 的 识别 率 却 最 高 ， 因 此 也 证 明 
了 本 文 模型 的 有 效 性 和 准确 性 ,， 与 文献 [和 算法 相 比 具有 更 高 的 
识别 率 和 泛 化 能 力 。 
表 1 群体 情绪 识别 结果 的 ACC 与 MAP 
方法 ACC(%) MAP(%) 
文献 [和 算法 76.7 76.6 
原始 图 80.2 82.0 
显著 图 69.8 78.0 
加 交流 图 38.4 53.1 
本 文 模型 
原始 图 + 显著 图 75.6 78.7 
原始 图 + 县 加 光 流 81.4 83.0 
三 通道 融合 82.6 84.1 
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b) 文献 [4] 算 法 
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6 群体 情绪 识别 结果 的 混淆 矩阵 


针对 机 器 视觉 中 群体 情绪 识别 的 问题 ， 本 文 提 出 了 基于 多 
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流 CNN-LSTM 的 群体 情绪 识别 网 络 模型 ， 以 视频 的 原始 图 像 
序列 、 显 著 图 序列 和 舌 加 光 流 序列 分 别 作为 三 个 通道 CNN- 
LSTM 网 络 的 输入 ， 学 习 视 频 中 场景 和 群体 的 静态 特征 、 和 群体 
的 局 部 运动 特征 和 全 局 运动 特征 。 与 已 有 算法 相 比 ， 本 文 多 流 
CNN-LSTM 网 络 模型 能 得 到 更 高 的 群体 情绪 识别 率 ，ACC 和 
MAP 分 别 lk 度 网 络 ， 


最 高 可 达 82.6%、84.1%。 且 整个 模型 基于 深 
E 须 先 验 信息 ， 具 有 良好 的 泛 化 性 能 。 
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